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基于 在 线 评论 的 图 书 消费 者 满意 度 影响 因素 与 作用 机 理 - 
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摘要 : [目的 /意义 ] 本文 旨 在 提出 一 种 从 大 量 在 线 商 品评 论 数 据 中 挖掘 影响 读者 满意 度 的 关键 因素 的 方 
法 ,并 深入 探讨 各 个 影响 因素 对 消费 者 满意 度 的 影响 模式 和 影响 程度 ,进而 为 图 书 出 版 企业 、 电 商 平 台 持 续 改 
善 读者 满意 度 提供 理论 基础 。[ 方法/ 过程 ] 一 方面 利用 朴素 贝 叶 斯 分 类 器 将 读者 的 情感 进行 分 类 。 另 一 方面 
对 评价 文本 中 的 高 频 名 词 进行 聚 类 ,发现 影响 读者 满意 度 的 主要 因素 。 在 此 基础 上 基于 最 大 程度 减少 不 确定 
性 的 原则 对 各 个 影响 因素 的 影响 模式 和 影响 程度 进行 分 析 。 [ 结果 /结论 ] 以 京东 人 工 智 能 类 图 书评 论 为 例 进 
行 了 实证 研究 ,发 现 包括 内 容 、 价 格 在 内 的 六 个 因素 可 以 极 大 地 反映 出 读者 的 满意 度 (83.2% ) 。 因 此 对 于 图 书 
类 商品 ,可 以 通过 对 大 量 历 史 评 论 数据 的 学 习 , 找 出 影响 读者 满意 度 的 主要 因素 , 据 此 设计 出 简化 的 读者 评论 
三 架 ,以 增强 读者 参与 评论 的 积极 性 ,提高 评论 的 质量 。 “图 书 内容 ” 是 影响 读者 满意 度 的 最 主要 因素 。 当 读者 
对 图 书 内 容 表 达 出 不 同 的 情感 时 ,其 他 因素 对 读者 满意 度 的 影响 模式 和 程度 是 完全 不 同 的 。 当 读者 对 图 书 内 

示 满意 时 ,89.2% 的 总 体 评 论 是 好 评 , 其 他 因素 的 影响 较 小 ,价格 是 导致 中 评 和 差 评 的 最 主要 因素 ; 当 读 者 
证 为 图 书 内 容 一 般 时 ,评论 趋向 于 中 性 ,读者 对 服务 和 物流 更 为 关注 ; 当 读 者 认为 图 书 内 容 不 令 人 满意 时 ,影响 
UTE T 因素 依次 是 包装 、 服务 质量 和 价格 。 基 于 不 同 影 响 因素 对 读者 满意 度 的 影响 模式 和 影响 程度 ,图 书 


企业 和 电 商 平台 可 以 更 加 有 针对 性 地 对 其 加 以 改善 ,以 提高 读者 满意 度 。 
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情感 分 析 


随 着 国民 素质 的 提高 ,阅读 书籍 已 经 成 为 人 们 日 


常生 活 中 必 不 可 少 的 一 部 分 ,2018 年 亚马逊 (中 国 ) 和 
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上 的 受 访 者 ,从 2016 年 的 48% 增长 到 了 5696 , 2017 


年 全 国 图 书 零售 市 场 总 规模 为 803 亿 元 ,其 中 网 络 零 
售 B2C 市 场 图 书 出 版 物 交 易 规模 为 301.3 亿 元 , 增 速 


达到 34. 496 ,如 图 1 所 示 。 预 计 2020 年 中 国 网 络 零 售 


B 


社交 网 络 的 “一 起 读 " 方式 成 为 数字 阅读 时 代 的 独特 


2C 市 场 图 书 出 版 物 交易 规模 将 达到 646.1 4426" 。 
社交 平台 是 读者 分 享 阅读 体验 的 主要 渠道 ,基于 
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图 1 中 国 B2C 市 场 图 书 出 版 物 交易 规模 中 


影响 。 相 关 企 业 和 电 商 平台 纷纷 通过 积分 或 者 小 额 代 


大 量 的 用 户 生 成 内 容 (User Generated Content, UGC) 


行为 。 网 络 时 代 信 息 传 播 的 速度 之 快 ,覆盖 范围 之 广 


使 得 读者 分 享 的 阅读 体验 可 以 对 大 量 的 潜在 读者 产生 


电 商 可 以 借 此 对 客户 进行 精准 画像 ,以 实现 精确 营 外 


的 目的 。 同 时 还 可 以 通过 客户 评价 管理 ,吸引 潜在 消 


费 者 。 


金 券 等 形式 鼓励 消费 者 进行 评论 和 分 享 。 由 此 产生 了 


, 


" 
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FMA, 王 悦 . 基于 在 线 评论 的 图 书 消费 者 满意 度 影响 因素 与 作用 机 理 [J]. 图 书 情报 工作 ,2019 ,63(22):106 一 117. 


本 研究 以 中 国 最 大 的 B2C 图 书 在 线 销售 商城 京 
东 (JD. COM) (2017 年 第 3 季度 ,京东 B2C 市 场 的 图 书 
在 线 销售 以 36. 296 的 市 场 份 额 超过 当当 和 天 猫 ,首次 
位 居 第 一 所 ) 的 在 线 图 书 销售 为 平台 ,选取 人 工 智能 领 
域 畅 销 书 的 在 线 评论 为 研究 对 象 , 对 影响 读者 满意 度 
的 因素 (评价 的 维度 ) 进行 判断 ,同时 用 机 器 学 习 的 方 
法 对 评论 的 总 体 满意 度 进行 分 类 ( 正 向 、 中 性 和 负 向 情 
感 )。 在 此 基础 上 对 不 同 影响 因素 对 读者 满意 度 的 影 
响 模 式 和 程度 进行 研究 ,以 期 为 图 书 在 线 销售 平台 和 
出 版 企业 进行 图 书 在 线 评论 管理 提供 经 验证 据 , 并 为 
电 商 平台 设计 更 加 有 效 的 评价 系统 提供 支持 。 


2 理论 基础 


2e 在 线 评论 相关 研究 
,全 在 互联 网 技术 盛行 以 前 ,人 们 常常 会 通过 询问 的 


[C5 
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方 起 来 了 解 商品 ,这 种 行为 被 认为 是 线 上 评论 发 展 的 
话 钱 ?” 。 伴 随 着 科技 的 迅猛 发 展 ,商品 交易 已 经 逐渐 
让 加 下 转移 到 线 上。 与 之 对 应 ,人 们 获取 商品 信息 的 
洗 道 也 发 生 了 转移 ,由 此 产生 线 上 评论 。 对 于 线 上 评 
诲 鸭 概 念 ,学 者 们 普遍 认同 C. Park RIT. M. Lee 的 
观 总 :消费 者 通过 电 商 平台 发 表 对 所 购 商 品 的 正 负面 


经 过 多 年 的 研究 积累 ,在 线 评论 的 有 用 性 得 到 广 
Hf, M. L. Jensen 等 提出 :在 线 评论 能 够 成 为 使 
前 无 法 轻易 表征 的 商品 质量 的 可 靠 信息 来 源 ' 。 
eLudwig 等 人 通过 实验 证 明 : 比 起 商家 的 产品 信息 ， 
网 网 消费 者 更 加 信任 评论 文本 内 容 ”。 在 线 评论 在 塑 
造 泗 费 者 对 产品 的 认 知 和 看 法 方面 发 挥 着 至 关 重 要 的 
PAM, 

在 线 评论 对 产品 销量 的 影响 是 研究 的 重点 。 学 者 
们 对 多 个 领域 的 在 线 评 论 进 行 了 研究 。N. N. Hodac 
等 证 实 了 亚马逊 的 在 线 商品 评论 会 对 产品 的 最 终 销 量 
有 一 定 程度 的 影响 。 王 君 珊 和 闫 强 对 京东 手机 评 
论 的 研究 发 现 长 文本 评论 对 于 各 个 品牌 手机 的 销量 都 
有 直接 影响 " S J. H. Lee 等 证 实 了 在 线 评论 与 电影 
票房 之 间 存在 相关 性 5 。W，Duan RUE RE GAY E 
实在 线 评论 文本 的 数量 与 商品 销售 之 间 的 正 相 关 的 关 
系 " 0 。 消 费 者 的 购买 决策 行为 对 于 企业 的 盈利 能 力 
岂 有 重要 影响 ,在 线 评论 可 以 提高 消费 者 对 购物 网 
二 和 产品 的 认 知 度 ,吸引 潜在 的 消费 者 ,从 而 使 其 做 出 
更 好 的 购物 决策 ,以 此 提高 消费 者 对 企业 产品 的 忠诚 
pm 
在 线 评论 不 仅 能 反映 消费 体验 ,在 一 定 程度 上 还 


Er 


会 影响 到 潜在 消费 者 的 购买 意愿 。 在 购买 决策 方面 ， 
某 种 产品 或 服务 的 在 线 评论 显著 影响 着 其 他 消费 者 的 
购买 态度 或 行为 ,能够 让 消费 者 在 做 出 购买 决策 之 
前 对 多 种 蔡 代 品 进 行 评估 和 比较 5 。 从 消费 者 视角 
来 看 ,在 线 评 论 能 够 为 其 在 购买 商品 过 程 中 提供 所 需 
E, ,消除 对 商品 本 身 或 服务 的 部 分 顾虑 "1。 

消费 者 的 评论 动机 也 取得 一 定 进 展 。J. Heyman 
tj D. Ariely 发 现 当 购物 网 站 对 发 表 评论 提供 经 济 回 
报 的 情况 下 ,评论 者 基于 市 场 交 换 原则 ,更 倾向 于 发 布 
对 购物 网 站 或 商家 有 利 的 评分 。 J. C. Sweeney 等 
人 在 研究 亚马逊 网 站 图 书 消费 者 的 评价 动机 时 ,发现 
经 济 回 报 会 损害 人 们 的 内 在 动机 ,从 而 导致 个 人 的 努 
力 程度 下 降 , 从 而 影响 评价 的 有 用 性 。 
由 于 消费 者 往往 怀疑 正 向 评论 是 消费 者 在 获得 经 
济 回报 的 情况 下 ,会 与 购物 网 站 建立 一 种 市 场 交换 关 
系 ,从 而 发 布 对 购物 网 站 或 商家 相对 有 利 的 评论 和 评 
分 站, 因此 认为 负面 评价 会 提供 更 具有 参考 价值 的 线 
索 , 更 有 影响 。 宁 连 举 从 程度 数量、 内 容 相 关 性 和 
专业 性 4 个 维度 ,研究 了 在 线 负面 评论 对 网 络 消费 者 
购买 意愿 的 影响 。 宋 远征 选取 产品 类 型 作为 调节 
变量 ,将 网 络 负面 评论 分 解 为 无 差异 的 产品 属性 负 天 
评论 .商家 服务 水 平 负面 评论 .物流 负面 评论 ,探讨 其 
对 购买 意愿 的 影响 。 

相 比 在 其 他 传媒 领域 的 应 用 ,在 线 评论 在 图 书 出 
版 业 的 应 用 还 不 够 广泛 。J.，Chevalier 较 早 对 Amazon 
和 巴 恩 斯 的 在 线 图 书 销售 数据 进行 研究 ,发 现 评分 和 
数量 都 对 结果 产生 积极 影响 ,但 评论 长 度 对 不 同 平台 
的 影响 显著 性 有 所 区 别 ”。 孙 克 琳 以 当当 网 不 同 种 
类 图 书评 论 数据 为 研究 对 象 ,证 明了 好 评 对 图 书 销量 
有 积极 影响 , 差 评 对 图 书 销量 没有 显著 影响 2 。 费 经 
纬 利用 回归 分 析 对 豆 泊 网 和 当当 网 网 络 图 书 销量 的 影 
响 因素 进行 了 分 析 王  。 
2.2 消费 者 满意 度 相关 研究 

早 在 20 世纪 中 叶 , 随 着 市 场 营销 观念 的 盛行 ,一 
同 备 受 关注 的 还 有 “消费 者 满意 度 ” 这 一 思想 ,但 当时 
并 没有 学 者 进行 系统 的 研究 。 到 了 20 世纪 60 年 代 ， 
美国 学 者 R. N. Cardozo 在 探究 消费 者 在 购买 商品 前 
的 投入 成 本 和 期 望 与 购买 商品 后 的 满意 程度 间 的 关系 
时 ,正式 提出 “消费 者 满意 度 ”这 一 概念 。 并 在 实验 
中 证 明 : 当 消费 者 花费 相当 多 的 精力 来 获得 产品 时 ,对 
产品 的 满意 程度 可 能 高 于 他 们 仅 使 用 适当 努力 时 的 满 
意 程度 ,而 当 产 品 达 不 到 预期 时 ,消费 者 满意 程度 低 于 
产品 达到 预期 时 的 满意 程度 。 此 后 ,对 于 消费 者 满意 
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度 的 探索 就 掀起 了 热潮 ,国内 外 众多 学 者 纷纷 从 不 同 
的 视角 来 阐述 消费 者 满意 度 的 相关 定义 。 

但 到 目前 为 止 ,学 术 界 对 消费 者 满意 度 没有 统一 
的 概念 界定 。R. L. Olive 在 1981 年 和 1996 年 分 别提 
出 了 “消费 者 满意 度 是 对 先前 期 望 和 实际 体验 之 间 感 
知 差异 的 总 体 情感 反应 ”, 即 预期 不 一 致 理论 ,和 *“ 消 
费 者 满意 度 是 指 消费 者 既定 的 心理 需求 得 到 充分 满足 
且 商 品 及 其 附属 服务 令 消费 者 获得 愉悦 情感 的 程 
度 "理论 ,受到 了 学 术 界 的 普遍 认可 ,这 两 种 观点 也 是 
“消费 者 满意 度 " 定义 历史 发 展 前 后 期 的 典型 代 
R, HE20 世纪 80 年 代 中 期 以 前 ,学 者 们 将 消费 
者 获得 商品 真实 感受 与 期 望 的 契合 度 作为 主要 研究 方 
向 。 而 在 后 期 的 探索 中 ,有 的 学 者 认为 消费 者 期 望 不 
是 判断 满意 度 的 唯一 指标 ,还 有 其 他 因素 可 以 影响 到 
消费 者 的 满意 度 , 如 商品 的 本 身 和 商品 相关 的 服务 等。 
i 屡 者 期 望 还 存在 由 于 对 消费 对 象 相关 知识 的 匮乏 ， 
储 避 的 缺失 等 ,导致 先前 对 商品 期 望 过 分 硅 张 的 现象 。 
基 书 此 ,在 20 世纪 90 年 代 后 ,学 者 们 研究 的 核心 集中 
在 满足 消费 者 需求 后 的 心理 及 情感 表现 方面 。 但 无 论 
是 项 前 期 还 是 后 期 ,共同 点 都 在 于 把 消费 者 满意 度 理 
解 为 一 种 心理 状态 和 情感 表达 。 例 如 ,了 K. Hunt 把 
消费 考 满意 度 定义 为 情感 ,而 将 消费 者 满意 度 定义 为 
xh WO ,日 ，Moezzi 则 将 消费 者 满意 度 总 结 
为 党 费 者 对 商品 或 服务 体验 评价 后 心理 状态 的 结 
DE , 张 圣 亮 等 把 消费 者 在 消费 过 程 中 感知 到 的 愉悦 
gll out del RED 
-三 互联 网 的 发 展 为 网 络 购物 开辟 了 巨大 的 空间 ,从 
要 柜上 改变 了 企业 与 消费 者 之 间 关 系 的 本 质 。 因 此 消 
费 者 满意 度 的 研究 已 经 不 仅仅 局 限于 传统 交易 ,网 络 
购物 消费 者 满意 度 也 得 到 了 国内 外 学 者 的 重视 。 如 ， 
查 金 祥和 王立 生 通 过 建立 结构 模型 证 实 了 线 上 商品 的 
价格 优势 与 质量 对 消费 者 满意 度 的 影响 最 为 显著 ” ; 
L. Zhang 等 使 用 验证 性 因子 分 析 和 结构 方程 模型 的 方 
法 ,验证 了 计算 机 使 用 熟练 程度 ,感知 方便 性 和 感知 安 
全 性 是 影响 消费 者 对 网 上 购物 满意 度 的 决定 因素 ; 
李 玉 薄 和 胡 培 "以 淘宝 在 线 评论 为 研究 对 象 ,提出 了 
商品 品质 商家 服务 ,快递 服务 质量 等 8 个 影响 网 络 购 
物 消费 者 满意 度 的 因素 ;0，Tandon 等 用 北 印度 各 州 的 
410 名 在 网 购 消费 者 的 数据 分 析 了 网 络 购物 环境 中 的 
消费 者 满意 度 的 影响 因素 ,揭示 了 网 站 功能 .网 站 设计 
以 及 交易 安全 性 等 都 对 网 络 购物 消费 者 满意 度 有 一 定 
HEH, 

与 其 他 商品 的 消费 者 满意 度 研究 相 比 ,有 关 图 书 


$ 
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类 商品 的 消费 者 满意 度 研究 很 少 。 R. T. Tapushe 发 现 
言 息 和 网 站 系统 质量 对 在 线 新 闻 读 者 满意 度 的 影响 最 
XU", D. Saxon 等 人 从 学 生 学 习 效果 的 角度 ,得 出 带 
超 链接 的 期 刊 论文 可 以 提高 读者 满意 度 ”。 张 飞 相 
在 研究 图 书 消费 者 忠诚 度 的 时 候 ,发 现 满意 度 对 消费 
者 忠诚 度 的 影响 最 大 "”。 匡 霞 在 研究 消费 者 感知 质 
量 与 忠诚 度 关系 时 ,发 现 消费 者 满意 度 在 两 者 之 间 起 
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到 了 中 介 的 作用 六 。 

基于 以 上 文献 研究 分 析 可 发 现 , 因 网 络 购物 环境 
不 同 于 传统 的 零售 环境 ,所 以 消费 者 满意 度 的 关键 驱 
动因 素 也 会 不 同 ,但 其 本 质 都 是 探究 不 同 因素 对 消费 
者 心理 状态 及 情感 的 影响 。 而 在 网 络 购物 环境 中 ,在 
线 评论 作为 消费 者 的 指导 信息 ,匿名 在 线 评论 的 传播 
使 更 多 的 消费 者 愿意 提供 他 们 自己 的 真实 体验 与 心理 
感受 ,表达 对 购买 商品 的 情感 倾向 。 
2.3 述评 

在 线 评 论 作 为 大 数据 时 代 的 重要 数据 源 已 经 得 到 
了 较 多 的 研究 ,其 在 商业 上 的 价值 已 经 获得 了 极 大 的 
认可 。 在 线 评论 是 消费 者 提供 的 最 直观 .最 具体 和 最 
真实 的 消费 体验 ,反映 的 是 消费 者 最 为 关切 的 内 容 , 因 
此 是 研究 消费 者 满意 度 影响 因素 的 重要 资源 。 已 有 的 
研究 中 ,在 线 评论 情感 分 析 、 网 购 消费 者 满意 度 的 影响 
因素 都 分 别 得 到 了 较 多 研究 , 却 没有 从 在 线 评论 角度 
挖 据 影响 消费 者 满意 度 因素 的 研究 。 因 此 ,本 研究 以 
京东 商城 中 的 人 工 智 能 领域 的 图 书评 论 为 例 ,从 图 书 
在 线 评 论 中 挖 据 影响 读者 满意 度 的 因素 。 在 此 基础 上 
进一步 探索 各 个 因素 对 读者 满意 度 的 影响 模式 和 影响 
程度 ,为 相关 企业 提高 读者 满意 度 提供 理论 基础 和 可 
操作 的 模式 。 


3 ”研究 过 程 及 结 
3.1 研究 设计 
本 研究 首先 采用 有 监督 的 朴素 贝 叶 斯 分 类 器 对 在 

线 评论 的 情感 进行 识别 ,然后 采用 无 监督 的 K -means 
聚 类 算法 寻找 读者 评论 涉及 的 主要 维度 ,作为 满意 度 
影响 因素 ,最 后 利用 决策 树 方法 绘制 出 各 个 因素 对 读 
者 满意 度 的 作用 机 理 , 见 图 2。 
3.2 ”数据 获取 与 预 处 理 
3.2.1 数据 获取 “人 工 智 能 ”已 经 成 为 国际 竞争 的 
新 焦点 ,不仅 是 引领 未 来 的 战略 性 技术 ,也 成 为 经 济 社 
会 发 展 的 一 个 新 引擎 。 京 东 图 书 平台 2018 年 图 书 销 
量 排行 榜 中 的 “计算 机 与 互联 网 ”目录 下 ,排名 前 四 名 
的 都 是 与 人 工 智能 相关 的 书籍 ,它们 分 别 是 “Python 编 
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图 2 电 商 平台 读者 满意 度 影响 因素 研究 框架 


程 - 从 人 门 到 实践 “数学 之 美 “ 机 器 学 习 " 和 "深度 
学 习 " 。 本 文 以 * 人 工 智能 "为 关键 词 进行 图 书 检索 ， 
发 现 了 相关 图 书 64 294 本 ,其 中 有 123 本 图 书 的 评论 
数量 超过 1 000 条 。 经 过 进一步 地 观察 发 现 同一 出 版 
祥 乓 同类 图 书评 论 是 被 整合 在 一 起 的 ,因此 评论 数据 
搜 焦 以 出 版 社 为 单位 进行 , 共 获 得 53 217 条 评论 文 
2 

3.22) 数据 预 处 理 ”众所周知 ,在 线 评论 文本 语句 杂 
乱 - 吾 构 性 较 差 , 因 此 在 分 析 之 前 需要 进行 降 噪 处 理 。 


尊 舌 要 对 形式 上 的 不 当 评 论 进行 修改 和 噜 除 ,例如 繁 


体 字 转换 为 简体 字 EE 去 英文 评论 。 经 过 降 噪 处理 
后 还 剩余 38 237 条 评论 ,这 些 数据 全 部 用 于 影响 因素 
的 提取 。 在 进行 机 器 学 习 时 ,考虑 到 单机 的 运行 速度 
和 学 习 的 效果 (不 同情 感 的 评论 数量 需要 相对 均衡 ) ， 
基于 多 类 情感 均衡 的 原则 从 上 述评 论 中 抽取 10 000 条 
图 书评 论 进行 分 析 , 经 过 人 工时 别 剔除 无 关 评论 后 还 
RIR 9 729 条 评论 ,以 此 为 基础 进行 人 工 标注 情感 分 


类 和 决策 树 的 学 习 。 
3.3 数据 分 析 
3.3.1 评论 文本 整体 极 性 分 类 京东 图 书 商城 为 了 


鼓励 读者 分 享 购物 体验 ,对 超过 一 定 字数 的 评论 给 予 
"RU SE" 作为 鼓励 ,虽然 鼓励 了 大 量 消 费 者 积极 分 享 购 
物体 验 ,但 也 存在 少数 消费 者 拼凑 字数 ,提供 无 效 评价 
的 情况 。 虽 然 在 数据 处 理 过 程 中 进行 了 初步 处 理 ,但 
仍然 存在 部 分 内 容 与 评级 不 符 的 情况 ( 见 表 1). XXBE 
是 因为 部 分 读者 的 评分 标准 不 够 准确 ,也 反映 出 电 商 
平台 在 设计 读者 评价 体系 和 引导 读者 客观 评价 方面 还 
有 竺 改善 。 因 此 本 研究 首先 对 评论 文本 的 真实 情感 进 
行 分 析 。 人 情感 分 析 过 程 见 图 3 。 


R1 部 分 评级 与 评价 内 容 不 符 的 京东 图 书 在 线 评论 内 容 


Ou 购买 时 间 评论 内 容 读者 打分 
"10727622675 — 2019 -2 -1 10:21 买 来 就 跟 旧书 一 样 ,有 折 痕 ;本 地 仓 的 结果 又 送 到 佛山 再 回 到 本 地 ,不 懂 这 个 物流 5 
T0448981304 — 2018 -10 -23 15:11 不 要 买 , 真 心 插 一 般 的 , 书 上 的 内 容 和 别 的 书 很 多 都 雷同 。 基 本 内 容 网 上 也 都 能 找到 5 
S10625154039 2018 -11 -29 9:08 这 本 书 收 到 时 很 脏 ,申请 了 换 货 处 理 , 依 旧 脏 污 ,在 等 京东 客服 办 理 退 货 中 ,不 打算 要 了 3 
qu 17244172 2019 -1 -6 19:13 这 本 书 内 容 中 规 中 矩 , 是 一 本 实用 性 很 强 的 书 ,而 且 书 的 印刷 质量 也 好 , 赞 3 
110100666028 2018-12 -20 12:17 颇 为 系统 的 一 本 书 ,覆盖 了 从 机 器 学 习 到 深度 学 习 的 完整 知识 体系 ,适合 系统 性 学 习 或 者 高 手 随 时 翻 查 1 
'O 评价 文本 中 出 现 了 比较 强烈 的 程度 副词 ,如 非常 、 及 


评论 文本 


图 3 基于 朴素 贝 叶 斯 的 情感 分 类 模型 


(1) 评 论文 本 的 极 性 标注 。 为 了 检验 文本 极 性 分 
类 的 准确 性 ,本 研究 采用 有 监督 的 机 器 学 习 方 法 。 首 
先 对 每 一 条 评论 的 情感 进行 人 工 标 注 ,将 情感 分 为 三 
级 ,分 别 赋值 1.2 和 3。 赋 值 为 1 时 包括 以 下 几 种 情 
况 : 全 部 是 负面 的 评论 ; 正 负 评论 都 有 ,在 不 存在 极端 
评价 时 ,负面 评论 多 于 正面 评论 ;存在 极端 评论 时 , 极 
端 负面 评论 多 于 极端 正面 评论 。 赋 值 2 包括 :全 部 是 
中 性 评论 ; 正 负面 评论 都 有 ,在 不 存在 极端 评论 时 , 正 
面 评论 多 于 或 等 于 负面 评论 ;存在 极端 评论 ,极端 正面 
评论 多 于 极端 负面 评论 。 赋 值 3 包括 :全 部 为 正面 评 
论 ;只 包含 对 图 书 内 容 的 描述 。 在 这 里 ,极端 评价 是 指 


HARF, 

(2) 文 本 结构 化 处 理 。 评 论文 本 属于 典型 的 非 结 
构 化 数据 ,因此 在 进行 深入 分 析 之 前 ,需要 将 文本 进行 
结构 化 处 理 。 首 先 需 要 将 文本 以 “ 词 ” 为 单位 进行 分 
割 , 然 后 构建 出 共 词 矩阵 ,最 后 再 进行 数字 化 转化 , 转 
变 为 词 向 量 。 

目前 广泛 应 用 的 中 文 分 词 软件 有 中 科 院 ICT- 
CLAS JIEBA 清华 大 学 的 THULAC 和 ANSJ 分 词 器 等 。 
其 中 JIEBA 的 应 用 最 为 广泛 ,分 词 正确 率 也 较 高 。 本 
研究 借助 JEBA 分 词 工具 包 进 行 结构 化 处 理 。 

JIEBA 是 一 个 通用 型 的 分 词 软件 ,无 法 对 不 同 的 
文本 类 型 和 文本 主题 进行 准确 分 词 ,因此 分 词 效果 的 
好 坏 在 很 大 程度 上 取决 于 针对 文本 特性 和 具体 内 容 构 
建 的 自 定 义 词典 。 读 者 发 布 的 评论 文本 反映 的 是 读者 
的 购物 过 程 体 验 , 因 此 关注 的 焦点 比较 集中 ,表达 的 情 
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图 二 情报 三 作 
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感 相对 明确 。 人 情感 表达 通常 会 存在 着 相对 固定 的 搭 
配 , 而 产品 评论 挖掘 的 主要 任务 就 是 挖掘 评论 中 的 情 
感 词 , 因 此 本 文 借鉴 陈 硕 总 结 出 的 表达 情感 的 词性 模 
A^ ( 见 表 2) 对 图 书评 论 的 情感 词 进行 识别 。 在 此 
基础 上 再 进行 人 工分 辨 ,进而 形成 针对 图 书评 论 的 自 
定义 词典 ,提高 分 词 的 效率 和 效果 。 

R2 图 书评 论 中 情感 词性 模板 


词性 模板 示例 1 情感 词 示例 2 情感 词 
副词 + 形容词 da ”非常 不 错 不 错 有 点 脏 脏 
名 词 + 形 容 词 na 书 不 错 不 错 内 容 丰 富 丰富 
副词 + 动词 dv TK ps 没 看 
动词 + 形容 词 va 送 货 快 快 感觉 一 般 一 般 
形容 词 + 形容 词 aa 好 好 好 好 薄 w 
助词 + 形容词 ua 就 是 快 快 应 该 不 错 不 错 


二 基于 表 2 情感 词性 模板 提取 出 了 图 书评 论文 本 中 
的 息 感 词组 合 ,对 其 中 出 现 频次 50 次 以 上 的 情感 词 进 
惩 AS 工 识别 ,进而 形成 了 本 研究 的 自 定义 词典 。 高 频 
情感 词 如 表 3 Bron : 

— 表 3 图 书评 论 中 的 主要 情感 词 及 出 现 频率 
porem 频率 


802 还 没 看 207 
307 不 知道 165 
268 还 没 250 
264 很 好 很 好 133 
248 质量 不 错 131 
219 书 不 错 107 


斧 在 分 词 的 基础 上 可 以 构建 图 书评 价 的 共 词 矩阵 
由 尝 不 同 的 评论 包含 的 词汇 数量 是 不 同 的 ,因此 处 在 
不 同 维 度 的 向 量 空间 中 ,需要 进行 维度 统一 化 处 理 , 最 
终 的 维度 就 是 所 有 评论 中 不 同 词汇 的 数量 。 

(3) 情感 极 性 分 类 算法 选择 。 读 者 评论 浩 如 烟 
海 , 要 对 所 有 文本 都 进行 人 工 情感 标注 既 要 花费 大 量 
人 力 物 力 ,也 没有 实际 意义 。 本 文采 用 可 监督 的 机 器 
学 习 算 法 对 训练 集 的 样本 进行 学 习 ,再 用 训练 好 的 模 
型 对 测试 集 的 情感 进行 预测 ,根据 预测 值 和 标注 值 的 
一 致 情况 检验 算法 的 有 效 性 。 

朴素 贝 叶 斯 算法 是 应 用 最 为 广泛 的 分 类 算法 , 具 
有 简单 高效 的 特点 。 本 研究 采用 朴素 贝 叶 斯 算法 对 
图 书评 论文 本 进行 情感 分 类 。 朴 素 贝 叶 斯 分 类 器 ( Na- 
ive Bayesian) 是 以 统计 学 中 的 贝 叶 斯 定理 为 基础 (公式 
1) 。 根 据 贝 叶 斯 定理 ,对 一 个 分 类 问题 ,给 定 样本 特征 
x, 样 本 属于 类 别 y 的 概率 是 : 


p(x |y)p(y) 
p (y | x) = "m 


[s] 


公式 (1) 
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在 这 里 ,x 是 一 个 特征 向 量 , 假 设 x 维度 为 M。 
为 假设 特征 条 件 独立 ,根据 全 概率 公式 展开 ,上 述 公 式 
1 可 以 表达 为 : 


Mp | y2e) p(y 2e) 
Ep =a) I p(x lyc) 
公式 (2) 
类 别 y 的 先 验 概率 可 以 通过 训练 集 算出 。 其 中 P 
(y=c) 是 类 别 c, 的 先 验 概率 。 假 设 训练 集中 共有 Q 
个 样本 ,其 中 类 别 c, 包含 N(N<0) 个 样本 , 则 有 : 


TELE ASK) 


再 通过 训练 集 上 的 统计 ,分 别 估 计 出 每 一 个 特征 
在 每 一 类 的 条 件 概率 。P(x | y=c) 是 属性 特征 x 在 
类 别 c, 中 的 类 条 件 概 率 。 指 在 类 别 c, 下 ,样本 特征 向 
量 的 某 一 维度 下 的 某 一 特征 出 现 的 概率 ,假设 c, 中 有 
及 个 样本 ,在 特征 向 量 的 第 半 个 维度 下 特征 x 出 现 的 
次 数 为 1, 则 有 : 


p(x lysa) = 下 公式 (4) 


由 于 分 母 中 为 全 概率 可 视 为 常数 ,因此 无 需 计算 。 

(4) 分 类 效果 评价 指标 。 机 器 学 习 模型 效果 的 好 
坏 可 以 通过 特定 的 指标 来 评价 ,其 中 最 为 经 典 的 指标 
包括 准确 率 (hccuracy)、 精 确 率 ( Precision)、 召 回 率 
( Recall) fH F1 — score , 


piyew | x) = 


m TP 真 阴性 +TN 真 阴性 
Y TP RYE + FP 假 阳 性 +TN 真 阴性 +FN 假 阴性 
公式 (5) 
- TP 真 阳性 
Precision = TP HPE + FP (RIPE 公式 (6) 
TP 真 阳性 
Recall = Te FAYE + FN RUE 2300 
F1 score _2 x Precision x Recall - 
z Precision + Recall 
2xTP 真 阳性 
2 证 真 阳性 +EE 候 阳性 +RN 假 阴性 AAO 


其 中 ,TP(True Positive) 真 阳性 :预测 为 正 ,实际 也 
为 正 ;FP( False Positive) 假 阳性 :预测 为 正 ,实际 为 负 ; 
FN(False Negative ) 假 阴 性 :预测 为 负 , 实 际 为 正 ; TN 
(True Negative) 真 阴性 :预测 为 负 ,实际 也 为 负 。 
Accuracy 准确 率 是 最 常用 的 指标 ,反映 的 是 整体 
的 识别 效果 ; Precision 精确 率 体现 的 是 “宁可 漏 掉 ,不 
可 错 杀 "的 思想 ,反映 的 是 预测 为 正 例 的 样本 中 有 多 少 
是 正确 的 ,数值 越 高 ,说 明 模 型 对 正 样本 的 识别 能 力 越 
强 ;Recall 召回 率 体现 了 “宁可 错 杀 ,不 可 漏 掉 ” 的 宗 
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旨 ,也 被 称 为 “ 查 全 率 ” ,反映 的 是 真正 的 正 例 被 识别 
出 来 的 概率 ;Fl - score 是 模型 精确 率 和 召回 率 的 加 权 
平均 , 它 的 最 大 值 是 1 ,最 小 值 是 0。Pl - score 越 高 ,说 
明 分 类 模型 越 稳健 。 

(5 ) 分 类 结果 比较 分 析 。 如 有 果 训 练 集中 茶 个 特征 
没有 出 现 过 ,也 就 是 一 个 词语 在 训练 集中 没有 出 现 过 ， 
那么 该 词语 的 出 现 概率 为 0。 使 用 连 乘 计算 文本 出 现 
的 概率 时 ,会 导致 在 整个 文本 中 出 现 的 概率 也 为 0, 这 


定 。 中 评 的 “ 错 杀 ” 率 比 较 低 , 即 预测 为 中 评 的 评论 中 
实际 为 中 评 的 比例 最 高 。 
3.3.2. 读者 满意 度 影 响 因素 确定 及 量化 

CL) 满意 度 影响 因素 确定 。 如 何 客观 地 在 海量 评 
论文 本 中 找 出 影响 读者 满意 度 的 主要 因素 是 本 研究 的 
一 个 核心 问题 。 传 统 的 满意 度 影响 因素 都 是 以 前 人 的 
研究 成 果 为 基础 提出 假设 ,并 通过 分 析 调查 问卷 对 假 
设 进 行 验证 。 然 而 在 大 数据 时 代 , 获 取 研 究 样 本 的 方 


显然 是 不 合理 的 。 为 了 避免 此 种 现象 的 发 生 ,在 估算 
概率 值 时 通常 要 采用 “ 拉 普 拉 斯 平滑 (a = 1) ”或 “Lid- 
stone 平滑 (0 < a <1)” 进 行 修正 。 平滑 系 数 是 一 个 
“ 超 参数 ” ,无 法 通过 学 习 得 到 ,因此 需要 人 为 设 定 ,最 
终 根据 评价 指标 择优 选择 。 

本 在 Python 的 学 习 库 中 提供 了 两 种 比较 有 效 的 特征 
向 量 提 取 方 法 ,一 种 是 Count Vectorizer, 它 主要 考虑 每 
信 司 汇 在 当前 训练 文本 中 出 现 的 频率 ; 另 一 种 是 Tfidf 
VEetbrizer ,不 仅 考量 某 一 词汇 在 当前 训练 文本 中 出 现 
的 汤 率 ,还 关注 这 个 词汇 在 其 他 训练 文本 中 出 现 的 次 


忆 售 用 词 是 指 在 文档 中 出 现 频繁 但 实际 意义 不 大 的 
词 3 例 如 “的 “在 "和 ”等 。 可 以 将 停 用 词 理解 为 过 滤 
语 就 是 在 分 词 过 程 中 过 滤 掉 的 词 。 本 文 在 评论 文本 
分 注 之 后 ,人 工 识别 高 频 词 中 的 无 意义 词 ,对 JIEBA 自 
带 檀 用 词 库 进 行 了 扩展 。 但 停 用 词 是 否 会 对 分 类 结果 
洪 正 向 作用 需要 通过 实验 来 证 实 。 

己 为 了 获得 最 佳 分 类 效果 ,本 研究 采用 交叉 验证 的 
HE SUR FEDERE RC w(0.2,0.4,0.6,0.8,1.0) JB 
EUG I SR, e s RU EE FEL UR 4 4 RUE GE 
习 , 最 后 选择 效果 最 好 的 一 组 。 

KAME a 取 0.4, 采 用 Count Vectorizer 进行 
特征 抽取 ,不 用 停 用 词 的 情况 下 学 习 效果 最 好 ,学 习 的 
准确 率 达 到 82.8% 。 其 他 指标 如 表 4 所 示 : 

表 4 不 同情 感 分 类 效果 的 精确 率 、 召 回 率 和 FI. score 


满意 度 Precision Recall Fl. score 
1 0.849 3 0.8220 0.8354 
2 0.8546 0.833 2 0.843 8 
3 0.8545 0.846 8 0.8506 

平均 值 0.85 0.82 0. 83 


可 以 看 出 ,三 个 分 类 的 精确 率 、 召 回 率 和 Fl - 
score 的 值 都 大 于 82% ,说 明 分 类 效果 较 好 ,好 、 中 、 差 
评 的 分 类 都 比较 准确 。 其 中 得 分 为 3, 即 好 评 的 分 类 
召回 率 和 也 — score 值 都 较 其 他 两 类 数值 高 ,说 明 对 
“满意 ”评价 的 识别 “ 漏 掉 ”的 比例 最 低 , 旦 分 类 最 为 稳 


式 更 加 便利 ,数据 更 加 完整 。 可 以 借助 大 量 的 在 线 评 
论文 本 提取 出 读者 的 关注 焦点 ,并 以 此 作为 满意 度 研 
究 的 评价 指标 ““” 。 文 本 中 频繁 出 现 的 高 频 名 词 可 
作为 评价 文本 的 特征 指标 “用 以 体现 读者 对 产品 的 
关注 点 ,也 就 是 影响 读者 满意 度 的 因素 。 

满意 度 影 响 因素 确定 的 具体 过 程 为 :评论 文本 
分 词 ( 全 部 评论 ) ,利用 Word2Vec 对 分 词 后 的 文本 
进行 训练 ,将 每 一 个 词语 映射 到 词 向 量 空间 ,再 利 
H K -means 算法 对 词 向 量 空间 中 的 高 频 名 词 进 行 

本 部 分 的 分 词 更 加 偏重 于 对 名 词 的 提取 ,因此 除 
了 构建 自 定 义 词 典 外 ,还 需要 多 次 对 停 用 词 库 进行 补 
充 ,以 适应 图 书评 论 的 特殊 性 ,提高 分 词 的 准确 性 。 在 
此 基础 上 进行 了 词性 标注 。 由 于 词汇 数量 巨大 ,所 构 
建 的 词 向 量 空 间 维 数 巨 大 且 稀 玻 , 因 此 需要 降 维 处 理 。 
本 研究 采用 Word2vec 进行 降 维 和 词 向 量 和 矩阵 的 构建 ， 
以 用 于 聚 类 分 析 。 

means 算法 是 无 监督 学 习 的 一 个 重要 算法 , 它 遵 
守 况 争 学 习 规 则 (winner -take -all rule) ,算法 思想 主要 
是 在 给 定 的 数据 集中 随机 选取 个 质心 ,在 质心 周围 
形成 饼 组 ,经 过 多 次 的 距离 计算 ,最 终 使 簇 内 距离 尽 可 
能 小 , 篮 间 距离 尽 可 能 

主要 高 频 名 词 的 词 云 分 布 见 图 4, 词 云 中 的 字体 
大 小 与 词 频 ( 见 表 5) 成 正比 。 可 以 看 出 ， 内 容 ” 是 读 
者 关注 的 核心 焦点 ,说 明 影 响 京 东 读 者 满意 度 的 最 主 
要 因素 是 图 书 的 内 容 。 同 时 可 以 看 到 质量 .印刷 、 速 
RE .价格 等 也 是 影响 读者 满意 的 主要 因素 。 

为 更 为 客观 地 挖掘 影响 读者 满意 度 的 关键 因素 ， 
本 文 利用 Word2Vec 对 评论 文本 进行 训练 ,采用 分 布 式 
表征 ,将 训练 文本 的 每 个 词语 用 分 布 式 权重 表示 ,并 得 
到 一 个 关于 图 书评 论 的 词 向 量 模型 。 然 后 将 50 个 高 
频 名 词 作为 特征 向 量 ,构建 了 聚 复 中 心 ,选取 个 随机 
质心 IRI K-Means 聚 类 算法 进行 多 次 迭代 ,将 其 分 为 
K 个 类 。 
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4 图 书评 价 中 的 高 频 名 词 的 词 云 分 布 


T 
PP 表 5 主要 高 频 名 词 及 其 分 布 


TE] ”频数 高 频 名 词 ”频数 高 频 名 词 ”频数 高 频 名 词 频数 


CS 4275 RÆ 2907 价格 2152 正品 1869 
OUR 4171 包装 2541 JR 2084 物流 1817 
"e 3305 帮助 2366  HGK 1921 外 包装 1 800 
bh 


2 942 速度 2 180 实惠 1 886 纸 1 781 


= ENEMIES MEME 
CD 在 值 选 取 上 ,通过 观察 可 将 K 的 取 值 范围 锁定 
19 之 间 , 利 用 肘 部 法 则 和 轮廓 系数 同时 验证 到 
JOBK 的 值 ,多 次 运行 后 ,得 到 最 佳 K 值 。 
>>“ 肘 部 "位置 即 曲线 拐点 的 位 置 对 应 的 最 佳 分 类 
数 民 值 为 6, 因 此 初步 将 值 确定 为 6( 见 图 5)。 接 下 
来 网 察 轮 廊 系 数 (Silhouette Coefficient) 的 运行 结果 ,可 
以 团 到 轮廓 系数 最 多 的 值 是 6。 根 据 轮 廊 系数 的 定 
大 值 对 应 的 K 值 为 最 优 分 类 数 ( 见 图 6)。 最 后 
将 堆 间 向 量 逐 步 降 维 ,得 到 图 7。 通 过 层次 聚 类 可 将 
影响 读者 满意 度 的 关键 因素 确定 为 6 个 。 它 们 分 别 
为 :第 三 方 服务 相关 的 包装 、 物 流 、 服 务 和 与 产品 本 身 
属性 有 关 的 价格 、 内 容 、 和 质量 。 


包装 物流 价格 n 

R BÉ 4d H6 7E nk kB ds gu I|) v4 oix 46 mx GO oi 

ig zk Si de xK OG; dg !Q sro «€ i ode CQ og 
x x ES Hd 


800 


700 


5 “ 肘 部 ”法 则 


轮廓 系数 


图 6 轮廓 系数 


质量 服务 


7 k=6 时 ,高 频 名 词 分 类 效果 
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(2 ) 满意 度 影响 因素 量化 。 用 户 对 产品 的 评价 与 反 
僻 , 基 本 表现 为 对 特征 词 的 主观 评价 和 描述 。 通 过 对 大 
量 的 评论 文本 观察 和 分析 发 现 ,这 种 描述 的 结构 可 归纳 
为 “特征 词 + 程度 副词 + 情感 词 "或 “特征 词 + 情感 词 ”。 
例如 在 评论 “客服 小 姐姐 人 很 好 ,服务 态度 超级 棒 , 很 详 
细 地 为 我 介绍 哪 本 书 适合 我 ,而 且 书 的 印刷 清晰 ,物流 


也 很 快 ,必须 五 星 好 评 ! ”中 就 包含 "服务 态度 + 超级 + 
ME" ”物流 + 很 + 快 " 和 ”印刷 + 清晰 "三 种 结构 。 因 此 
评价 指标 量化 就 是 以 特征 词 为 轴 心 ,定位 特征 词 前 后 
[ -uaj 的 区 间 , 然 后 对 区 间 内 的 程度 副词 和 情感 词 进 
行 赋值 ,不 同类 型 的 文本 u 的 取 值 是 不 同 的 ,本 文中 
取 值 为 4。 部 分 程度 副词 ,情感 词 赋值 如 表 6 所 示 : 


表 6 程度 副 词 ,情感 词 赋值 ( 部 分 ) 
程度 副词 分 值 积极 情感 记 Ais ipea Ais ritis 分 值 

非常 极其. 太 4 好 2 p: -2 一 般 1 

{R BE 3 快 2 慢 一 2 凑合 1 

较 2 H 2 B -2 iG 

/( 无 修饰 副词 ) 1 精彩 2 p -2 TR 1 
根据 赋值 ,计算 特征 词 i 的 得 分 : 性 反 转 。 例 如 :“ 书 的 /内 容 / 很 /精彩 ”( 正 向 ) ,添加 否 
Score(i) =a * word(i) ARO) ” 定 词 后 变 为 “ 书 的 /内 容 / 不 是 /很 /精彩 ”( 负 向 )。 


之 其 中 a 为 程度 副词 分 值 ,word(i) 为 形容 特征 词 i 
情感 词 分 值 。 

在 情感 分 析 研究 中 ,有 学 者 提出 效 价 转换 器 的 概 
污 妈 有 部 分 词 或 短语 的 出 现 可 能 改变 情感 倾向 。 
党 亚 的 转化 器 为 否定 词 转化 器 ,如 在 特征 词 前 后 定义 
区 国内 存在 否定 词 会 直接 影响 文本 整体 语义 ,形成 极 


此 ,计算 特征 词 i 的 得 分 : 
Score(i) et -1)t #a*word(i) 公式 (10) 
其 中 t 决 定 是 否 有 极 性 反 转 。 
根据 以 上 读者 满意 度 评价 指标 的 量化 方法 ,最 终 
得 到 每 条 评论 的 每 个 评价 指标 特征 词 对 应 的 分 数 。 具 
体 得 分 情况 如 表 7 所 示 : 


X7 评论 文本 特征 词 量化 表 ( 部 分 ) 
He 评论 内 容 包装 物流 ”价格 ”内 容 质量 服务 
CN 这 本 书写 的 真 好 ,正版 书 ,京东 物流 无 敌 ,性 价 比 高 。 0 8 2 8 0 0 
> 包装 很 差 , 就 一 个 塑料 袋 。 但 好 在 书 的 内 容 不 错 ,客服 态度 也 比较 好 ,勉强 三 星 吧 。 -6 0 0 2 0 4 
这 本 书 真 的 不 建议 购买 ,内 容错 误 太 多 了 ,排版 也 不 好 。 0 0 0 -8 -2 0 


中 最 后 ,以 每 条 完整 在 线 评论 为 单位 ,汇总 六 类 特征 
的 情感 分 值 ,得 到 了 满意 度 影响 因素 的 多 维 数据 矩阵 。 
3:8:$9 基于 决策 树 的 读者 满意 度 影响 因素 分 析 

(1) 决 策 树 算法 选择 。 决 策 树 方法 就 是 一 种 从 无 
次 序 .无 规则 的 样本 数据 集中 ,根据 决策 问题 的 自然 状 
态 或 条 件 出 现 的 概率 ,行动 方案 、 益 损 值 .预测 结果 等 ， 
推理 出 决策 树 表示 形式 的 分 类 规则 的 方法 ,用 一 个 树 
状 图 表示 出 来 ,并 利用 该 图 反映 出 人 们 思考 预测. 决 
策 的 全 过 程 。 

它 采 用 自 顶 向 下 的 递归 方式 。 决 策 树 从 根 节点 开 
始 ,对 实例 的 某 一 特征 进行 测试 ,根据 测试 结果 将 实例 
分 配 到 其 子 节点 ,此 时 每 个 子 节点 对 应 着 该 特征 的 一 
个 取 值 ,如 此 递归 的 对 实例 进行 测试 并 分 配 ,直到 到 达 
叶 节点 ,最 后 将 实例 分 到 叶 节 点 的 类 中 。 因 此 从 根 节 
点 到 叶 节点 的 一 条 路 径 就 对 应 着 一 条 规则 , 整 棵 决策 
树 就 对 应 着 一 组 表达 式 规则 。 

决策 树 学 习 通 常 包括 特征 选择 .决策 树 的 生成 . 决 
策 树 的 修剪 三 个 步 又 。 


决策 树 生 成 主要 是 由 三 个 算法 构成 ,分 别 是 ID3、 
C4.5 fll CART, 3 个 算法 的 主要 区 别 在 于 度量 信息 方 
法 .选择 节点 特征 还 有 分 支 数 量 的 不 同 。ID3 和 CA. 5 
JH i ( entropy ) 来 度量 信息 不 确定 度 ,CART 采用 基 
尼 指 数 (Gini index) , ID3 选择 “信息 增益 ”最 大 的 作 
为 节点 特征 ,C4.5 选择 “信息 增益 比 ” 最 大 的 作为 节点 
FME, EMI HAE SUBE. CART 是 二 又 树 。 

通过 递归 算法 生成 的 决策 树 会 根据 已 知 数 据 一 直 
计算 下 去 ,直到 不 能 继续 ,很 容易 产生 过 拟 合 (overfit- 
ting) 。 剪 校 算法 就 是 提高 决策 树 泛 化 性 ,防止 过 拟 合 
的 方法 。 剪 校 分 为 预 前 梳 与 后 剪 校 。 预 前 校 是 指 在 决 
策 树 的 生成 过 程 中 ,对 每 个 节点 在 划分 前 先进 行 评估 ， 
知 当 前 的 划分 不 能 带 来 泛 化 性 能 的 提升 , 则 停止 划分 ， 
并 将 当前 节点 标记 为 叶 节 点 。 后 剪 枝 是 指 先 根据 训练 
集 生成 一 颗 完 整 的 决策 树 ,然后 自 底 向 上 对 非 叶 节点 
进行 考察 , 若 将 该 节点 对 应 的 子 树 替 换 为 叶 节 点 ,能 带 
来 泛 化 性 能 的 提升 , 则 将 该 子 树 替换 为 叶 节 点 。 

(2) 决 策 树 学 习 结 果 及 分 析 。 本 研究 调用 Python 
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中 的 Skleam 数据 库 的 决策 树 算法 ,采用 优化 ID3 算法 
和 预 前 校生 成 决策 树 ,决策 树 的 深度 设 定 为 4。 

随机 选取 满意 度 影响 因素 与 对 应 的 情感 综合 评价 
多 维 数据 矩阵 中 的 75% 作为 测试 集 ,满意 度 影响 因素 
MEN x -train ,情感 综合 评价 为 y-train。 其 余 2596 作为 


验证 集 ,满意 度 影响 因素 为 x -test ,情感 综合 评价 为 y- 


test , 预测 结果 为 y-pred。 通 过 比 对 y -test FI y -pred , 确 
定 决策 树 的 分 类 结果 的 准确 率 为 83.2% ,分 类 效果 比 
较 好 。 其 他 指标 如 表 8 Er: 

表 8 各 影响 因素 与 读者 满意 度 关系 的 检验 结果 


Precision Recall F1 - score 
1 0.93 0.73 0.82 
2 0.66 0.86 0.75 
1 3 0.84 0.95 0. 89 
0.85 0.83 0. 83 


图 8 是 全 部 样本 的 决策 树 。 其 中 的 每 个 内 部 节点 
人 对 对 某 一 属性 的 一 次 测试 ,每 条 边 代表 一 个 测试 结 
黑 。 每 个 测试 结果 对 应 着 “Ture" 和 ”False”, 左 侧 的 为 
"Taie" , 右 侧 的 为 “False” 。 决 策 树 的 决策 过 程 需要 从 
凑 顽 树 的 根 节点 开始 ,每 一 个 内 部 节点 都 是 以 信息 增 
疹 蝇 大 的 影响 因素 作为 判定 依据 , 待 测 数据 与 决策 树 
民 鹿 尾 征 节点 进行 比较 ,并 按照 比较 结果 选择 下 一 比 
较 窒 支 ,直到 叶子 节点 ,作为 最 终 的 决策 结果 。 
样本 中 , 差 评 、 中 评 和 好 评 的 数量 分 别 为 3 447、 
2 836 和 3 446 条 。 在 进行 分 析 之 前 ,整个 系统 的 信息 
炳 z= 业 就 是 不 确定 性 为 1.579 2。 分 别 计算 各 个 因素 的 
信息 增益 ,“ 内容” 对 读者 满意 度 的 影响 最 大 ,也 就 是 
说 对 内 容 的 评价 的 认 知 会 最 大 限度 地 降低 读者 满意 度 
的 不 确定 性 。 为 了 便于 展示 ,基于 对 图 书 内 容 分 值 ,将 
决策 树 分 为 两 个 部 分 (如 图 8) ,上 部 分 是 对 内 容 比 较 
满意 ,评论 数量 为 2 161 条 。 下 面部 分 是 对 内 容 满意 
度 分 值 低 于 1.5 的 ,评论 数量 为 7 568 条 。 

对 于 内 容 比 较 令 人 满意 的 图 书 (1.5 分 以 上 ) ,只 
要 价格 不 是 很 贵 (价格 评分 高 于 - 1.5) 、 服 务 水 平一 
般 及 以 上 (服务 评分 大 于 -0.5) 包装 不 是 很 差 (包装 
评分 大 于 -1.5) ,89. 2% 的 评价 得 到 好 的 综合 评价 
(1 927/2 161 =89.2% ,路 径 中 ) ;虽然 内 容 比 较 令 人 
满意 的 评价 中 最 终 获 得 差 评 的 样本 数量 极 小 ,但 也 需 
要 特别 关注 。 可 以 看 出 在 内 容 比较 令 人 满意 的 前 提 
下 ,价格 是 影响 综合 评价 结果 的 一 个 重要 因素 。 如 果 
读者 认为 价格 令 人 很 不 满意 (得 分 低 于 - 3 ) ,无 论 其 
他 因素 如 何 ,最 终 评价 都 没有 好 评 @; 对 于 其 他 因素 ， 
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即使 得 分 很 低 ,读者 会 给 与 更 多 的 中 评 ,而 不 是 差 评 ， 
如 过 程 @ 和 过 程 引 。 

共有 1 964 条 评论 的 内 容 得 分 介 于 0.5 和 1.5 之 
间 , 即 内 容 还 行 但 还 没有 达到 很 好 (@@) 。 在 这 种 情况 
下 即使 对 服务 包装 等 影响 因素 存在 不 是 很 满意 的 情 
况 ,综合 评价 为 中 评 的 比例 也 很 高 , 达到 88. 796 
(1 742/1 964 =88.7% ) ,但 好 评 数量 却 低 于 差 评 。 

内 容 一 般 及 不 好 的 评论 数量 最 高 ,为 5 604 条 。 
如 果 包 装 及 图 书 质量 没有 达到 很 好 及 以 上 ,58. 896 
(3 298/5 604 =58. 8% ) 的 综合 评价 为 差 评 。 但 对 包 
装 质量 和 价格 评分 较 高 时 ,综合 评价 中 也 会 有 较 高 比 
例 的 好 评 ( 过 程 @ 及 过 程 @) 。 

对 于 京东 商城 人 工 智能 领域 的 读者 来 说 ,图 书 内 
容 是 影响 读者 综合 体验 最 关键 的 因素 。 图 书 内 容 的 感 
受 与 读者 的 综合 评价 具有 明显 的 关联 。 说 明 人 工 智能 
领域 的 读者 极其 重视 图 书 的 内 容 , 当 图 书 内 容 一 般 或 
者 较 令 人 满意 时 ,读者 的 综合 评价 基本 与 对 图 书 内 容 
的 情感 一 致 。 但 当 内 容 不 令 人 满意 时 ,读者 也 比较 宽 
容 , 只 要 在 其 他 影响 因素 方面 得 到 了 较 好 的 体验 ,就 不 
会 轻易 给 与 差 评 。 

不 同 的 内 容 满意 程度 下 ,读者 满意 的 决策 过 程 也 
是 不 同 的 。 对 于 内 容 很 好 的 图 书 , 价 格 太 贵 是 导致 差 
评 的 主要 因素 ;服务 和 包装 只 要 不 是 太 差 ,对 读者 的 满 
意 度 影 响 不 大 ;图 书 质量 和 物流 的 影响 更 是 微乎其微 。 
内 容 还 行 一 般 的 图 书 , 读 者 更 加 关注 服务 和 物流 ,只 
要 物流 和 服务 不 是 太 差 ,大 部 分 的 情感 都 是 中 评 , 但 好 
评 的 数量 低 于 差 评 数量 。 图 书 内 容 一 般 或 者 不 好 ,只 
要 包装 和 服务 质量 没有 达到 很 高 的 水 平 ,读者 大 部 分 
都 是 不 满意 的 ;但 包装 、 质 量 和 价格 的 评分 较 高 时 ,还 
是 会 有 很 大 比例 的 读者 会 感到 满意 。 


4 结论 


本 研究 基于 京东 商城 人 工 智 能 类 图 书 的 在 线 评 
论 ,提出 了 一 种 适应 大 数据 环境 的 读者 满意 度 的 研究 
模式 一 一 结合 机 器 学 习 和 自然 语言 处 理 方法 深入 挖掘 
影响 读者 满意 度 的 主要 因素 及 这 些 因素 如 何 影 响 读者 
满意 度 。 文 中 所 采用 的 研究 方法 具有 和 较 强 拓展 性 ,可 
以 不 受 商品 内 容 的 限制 ,通过 不 断 地 学 习 自 动 提 取 特 
定 商品 的 影响 消费 者 满意 度 的 影响 因素 ,这 些 影响 因 
素 能 最 大 限度 地 反映 消费 者 对 商品 的 总 体 评价 。 而 且 
可 以 进行 深度 挖掘 ,通过 在 线 评论 分 析 ,找到 相关 出 版 
社 在 线 图 书 销售 中 存在 的 问题 。 
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度 影 响 因 素 与 作用 机 理 []]. 图 书 情报 工作 ,2019 ,63(22 ) :106 - 117. 
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斧 通 过 研究 发 现 ,朴素 贝 叶 斯 算法 对 评论 文本 情感 
的 任 类 效果 较 好 ,学 习 的 准确 率 达 到 82.8% 。 这 种 方 
法 能 够 解决 读者 在 进行 满意 度 评价 时 的 非 标准 化 和 随 
意 性 问题 ,得 到 较为 客观 的 综合 评价 分 值 。K -means 
聚 类 算法 也 能 有 效 地 选取 出 反映 读者 满意 度 的 主要 维 
度 。 决 策 树 能 够 直观 地 反映 出 各 个 因素 对 读者 满意 度 

的 影响 程度 和 影响 模式 。 

对 于 京东 商城 人 工 智能 领域 的 读者 来 说 ,包装 、 物 
流 服务、 价格 内容 .和 质量 是 影响 读者 满意 度 的 最 关 
键 的 因素 。 不 同 的 内 容 满意 程度 下 ,读者 满意 度 的 决 
a 同 理 , 电 商 平台 也 可 以 借助 机 器 

学 习 算 法 对 其 他 在 线 商品 的 历史 在 线 评论 进行 持续 跟 
踪 和 分 析 , 针 对 不 同类 型 商品 分 别提 取 影 响 读者 满意 
度 的 主要 因素 ,从 而 简化 评论 流程 ,设计 出 更 好 的 评价 
体系 ,引导 读者 评论 。 同 时 可 以 给 出 一 个 相对 的 标准 ， 
使 读者 有 据 可 循 ,不 仅 降低 了 读者 的 评价 难度 ,也 提高 
了 评价 数据 质量 。 基 于 消费 者 在 不 同情 况 下 的 差异 的 
决策 过 程 ,商家 和 电 商 平台 可 以 根据 不 同 影响 因素 对 


“内 容 ” 评 分 高 于 LS 的 决策 过 程 


entropy = 0.9932 entropy = 0.9975 
samples = 31 samples = 34 
value= (17. 14, 0] value = (18, 16, 0) 


图 8 基于 各 个 影响 因素 的 读者 满意 度 决策 树 


消费 者 满意 度 影响 模式 和 程度 ,有 针对 性 地 重点 关注 

并 及 时 改善 ,以 提高 消费 者 满意 
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Influencing Factors and Mechanism of Book Consumer Satisfaction Based on Online Comments 
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Oi bstract: [ Purpose/significance | This paper aims to propose a method to mine the key factors influencing reader 
sati&faction from a large amount of online commodity review data, and deeply explore the influence mode and degree of 
ef influencing factor on consumer satisfaction, so as to provide a theoretical basis for book publishing enterprises and e 
-conimerce platforms to continuously improve reader satisfaction. [ Method/process | On the one hand, naive bayesian 
classifier was used to classify reader emotion; On the other hand, the high frequency nouns in the evaluation text were 
clustered to find the main factors that affect reader satisfaction. On this basis, the influence mode and degree of each in- 
fluencing factor were analyzed based on the principle of minimizing uncertainty. [ Result/conclusion ] Taking the JD' s 
aftificial intelligence book review as an example, an empirical study was conducted. It was found that the six factors inclu- 
ding*content and price can greatly reflect the reader’ s satisfaction (83. 296 ). Therefore, for books and commodities, we 
cihAind out the main factors affecting readers" satisfaction by studying a large number of historical review data, and de- 
sidha simplified reader review framework accordingly, so as to enhance the enthusiasm of readers to participate in the re- 
viewzand improve the quality of the review. ' Book content' is the most important factor affecting reader satisfaction. 
When readers express different emotions on the content of the book, the influence mode and degree of other factors on 
reader satisfaction are completely different. When readers are satisfied with the content of the book, 89.296 of the overall 
comments are favorable, while other factors have little influence. When readers think the book content is general, the re- 
view tends to be neutral, and readers pay more attention to the service and logistics; When readers think the content of 
books is not satisfactory , the factors affecting the satisfaction of readers are packaging, service quality and price in order. 
Based on the influence mode and influence degree of different influencing factors on reader satisfaction, book publishing 
companies and e-commerce platforms can be improved more specifically to improve reader satisfaction. 
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